Polarization Measurement of High Dimensional Social Media Messages With Support Vector Machine Algorithm Using Mapreduce
نویسنده
چکیده
Bu çalışmada önerilen yöntem kullanılarak, Eşle/İndirge (MapReduce) tekniği ile özellikle TFxIDF yöntemi gibi yüksek boyutlu veri setlerinin, veri madenciliğinde oldukça sık kullanılan makine öğrenme algoritmalarından olan Destek Vektör Makinesi (DVM) ile uygulanabilirliğini anlatılmaktadır. Literatürde, DVM sınıflandırma algoritması, makine öğrenmesi yöntemleri arasında genelleştirme özelliği en yüksek ve nitelikler arasında yer alan korelasyondan etkilenmeyen bir yöntem olduğunu gösteren birçok çalışma mevcuttur. Fakat DVM yöntemi eğitim aşamasında kuadratik optimizasyon yöntemleri kullanmasından dolayı zaman karmaşıklığı O(m) ve alan karmaşıklığı O(m) şeklindedir. Bu nedenle DVM, yüksek boyutlu veri setlerinin sınıflandırılmasında kullanılacak hipotezin çıkarımı esnasında uygulanabilir olmaktan çıkmaktadır. Bu soruna çözüm olarak geliştirilen yöntemde, dağıtık Eşle/İndirge yöntemiyle alt veri setlerinin oluşturulması, her bir alt veri seti kullanılarak ortaya çıkan sınıflandırma hipotezinin destek vektörlerinin birleşimi, yinelemeli olarak tekrar kullanımıyla eğitilmesi anlatılmaktadır. Çalışmanın uygulama kısmında, yüksek boyutlu sosyal medya mesaj veri setinin TFxIDF yöntemi ile gösterimi ve bu sayısal veri setinin duygu analizi (sentiment analysis) ile kutupsal değerinin ölçümü anlatılmaktadır. Sınıflandırma yöntemi olarak iki ve üç sınıflı modeller oluşturulmuştur. Her bir sınıflandırma modelinin karmaşıklık matrisi tablolar ile gösterilmiştir Sosyal medya mesaj derlemi Türkiye'de bulunan 108 devlet ve 66 adet vakıf üniversitesi mesajlardan oluşmaktadır. Derlem için kaynak olarak Twitter kullanılmıştır. Twitter kullanıcıların mesajları Twitter Streaming API ile elde edilmiştir. Sonuçlar grafik ve tablolar ile paylaşılmıştır. Anahtar Kelimeler: Büyük Veri, Destek Vektör Makinesi, Eşle/İndirge, Makine Öğrenmesi, Sosyal Medya
منابع مشابه
Feature Selection and Classification of Microarray Gene Expression Data of Ovarian Carcinoma Patients using Weighted Voting Support Vector Machine
We can reach by DNA microarray gene expression to such wealth of information with thousands of variables (genes). Analysis of this information can show genetic reasons of disease and tumor differences. In this study we try to reduce high-dimensional data by statistical method to select valuable genes with high impact as biomarkers and then classify ovarian tumor based on gene expression data of...
متن کاملOnline Voltage Stability Monitoring and Prediction by Using Support Vector Machine Considering Overcurrent Protection for Transmission Lines
In this paper, a novel method is proposed to monitor the power system voltage stability using Support Vector Machine (SVM) by implementing real-time data received from the Wide Area Measurement System (WAMS). In this study, the effects of the protection schemes on the voltage magnitude of the buses are considered while they have not been investigated in previous researches. Considering overcurr...
متن کاملFeature Selection Using Multi Objective Genetic Algorithm with Support Vector Machine
Different approaches have been proposed for feature selection to obtain suitable features subset among all features. These methods search feature space for feature subsets which satisfies some criteria or optimizes several objective functions. The objective functions are divided into two main groups: filter and wrapper methods. In filter methods, features subsets are selected due to some measu...
متن کاملAMRITA_CEN @ FIRE 2015: Extracting Entities for Social Media Texts in Indian Languages
This contemporary work is done as a slice of the shared task on Entity Extraction from Social Media Text Indian Languages in Forum for Information Retrieval and Evaluation (FIRE2015). Nowadays people are extensively using social media platforms like Face book, Twitter, etc, to exchange their thoughts. The twitter messages are growing rapidly and their style and short nature present a new challe...
متن کاملDetection of some Tree Species from Terrestrial Laser Scanner Point Cloud Data Using Support-vector Machine and Nearest Neighborhood Algorithms
acquisition field reference data using conventional methods due to limited and time-consuming data from a single tree in recent years, to generate reference data for forest studies using terrestrial laser scanner data, aerial laser scanner data, radar and Optics has become commonplace, and complete, accurate 3D data from a single tree or reference trees can be recorded. The detection and identi...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- CoRR
دوره abs/1410.2686 شماره
صفحات -
تاریخ انتشار 2014